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印度 血 桐 与 中 平 树 基因 组 调查 及 SSR 分 子 标记 分 析 
李江 莹 ”， 陆 添 权 !， 杨 俊 波 *?， 田 波 
(1. 中 国 科学 院 西双版纳 热带 植物 园 热带 植物 资源 可 持续 利用 重点 实验 室 ， 昆 明 650223; 2. 中 国 科 学 院 
昆明 植物 研究 所 中 国 西南 野生 生物 种 质 资 源 库 ， 昆 明 650204; 3. 中 国 科 学 院 大 学 ， 北 京 101408) 

摘 要: 印度 血 桐 与 中 平 树 是 大 戟 科 血 桐 属 植物 ， 该 属 植物 具有 多 种 药 用 价值 ,被 广泛 应 用 
于 民间 医学 中 许多 疾病 的 治疗 ， 这 两 种 植物 种 子 中 含有 的 神经 酸 也 引起 了 研究 者 的 高 度 关 
注 。 为 确定 适合 印度 血 桐 与 中 平 树 的 全 基因 组 测序 研究 策略 。 本 实验 采用 二 代 高 通 量 测序 技 
术 ,， 结合 生物 信息 学 的 方法 首次 测定 了 印度 血 桐 与 中 平 树 的 基因 组 大 小 、 杂 合 率 、 重 复 率 等 
基因 组 信息 ; 初步 分 析 了 两 种 材料 的 SSR 序列 特征 。 结 果 表 明 : (1) 印 度 血 桐 与 中 平 树 的 基 
组 大 小 分 别 为 986.84 和 946.23 M; (2) 印 度 血 桐 与 中 平 树 的 杂 合 率 分 别 为 0.75% 和 0.65%， 
E 复 序列 比例 分 别 为 73.02% 和 71.5%; (3) 通 过 对 2 种 材料 基因 组 序列 的 SSR 特征 分 析 ， 在 
中 度 血 桐 中 共 鉴 定 了 4 499 185 个 SSR， 在 中 平 树 中 共 鉴 定 了 4 969 098 个 SSR。 该 研究 结 
果 为 印度 血 桐 与 中 平 树 SSR 分 子 标 记 的 筛选 、 开 发 以 及 全 基因 组 深度 测序 提供 了 理论 指导 。 
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Abstract : Macaranga indica and M. denticulata belongs to the genus Macaranga 


Thou.(Euphorbiaceae family). Plants of this genus are widely used in the treatment of many 
diseases in Chinese folk medicine. The nervonic acid contained in the seeds of these two plants 
has also attracted great attention of researchers. In order to determine the strategy of the whole 
genome of M. indica and M. denticulata. In the present study, we first determined the genome 
sizes, heterozygosity, GC content, and repeatability of M. indica and M. denticulata through the 
next generation sequencing technology and bioinformatics methods. The SSR sequence 
characteristics of M. indica and M. denticulata were analyzed. The results showed that: (1)The 
genome size of M. indica and M. denticulata were 986.84 and 946.23 M, respectively; (2)The 
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heterozygosity rates and the repeat rates were calculated to be 0.75% and 73.02% respectively in 
M. indica, and 0.65% and 71.5% in M. denticulata; (3)In addition, 4 499 185 and 4 969 098 
genomic simple sequence repeat (SSR) markers in M. indica and M. denticulata were generated 
respectively. The results provide theoretical guidance for deep whole-genome sequencing of the 
two species and the screening and development of SSR molecular markers of M. indica and M. 
denticulata. 

Keywords: Macaranga indica, Macaranga denticulata, nervonic acid, genome survey, simple 
sequence repeat (SSR) 

印度 血 桐 (Macaranga indica) 与 中 平 树 (M. denticulata) 属 于 大 戟 科 铁 苋菜 族 血 桐 属 植 物 ， 
二 者 均 为 叶 盾 状 着 生 的 高 大 乔木 ,广泛 分 布 于 我 国 西 南 地 区 的 山谷 、 次 生 林 或 常 绿 阔 叶林中 。 
《中 华 本 草 》 中 记录 了 中 平 树 的 主要 药 用 部 位 根 与 树 皮 具有 退 黄 、 清 热 利 湿 等 功效 ,可 用 于 
治疗 骨 腕 疼痛 、 黄 净 型 肝炎 ( 黄 建 蕉 等 ，2015)。 已 有 相关 研究 报道 了 从 印度 血 桐 中 分 离 出 了 
又 花 酸 ， 异 戊 烯 化 黄酮 等 多 种 化 合 物 ,这些 化 合 物 具有 如 抗 氧化 作用 、 抗 炎 作 用 等 多 种 生物 
活性 ， 可 发 展 为 一 种 新 的 工业 萃取 源 (Yang et al., 2015)。 通 过 对 印度 血 桐 与 中 平 树种 子 中 所 
含 脂肪 酸 的 成 分 测定 , 我 们 发 现 印 度 血 桐 和 中 平 树 的 种 子 脂 肪 酸 组 成 成 分 中 , 都 含有 超 长 链 
单 不 饱和 脂肪 酸 一 神经 酸 ， 这 一 实验 结果 验证 了 王 性 炎 等 (2006) 在 多 份 植物 样品 中 发 现 盾 叶 
木 [ 注 : 新 版 《中 国 植物 志 》 己 修订 盾 叶 木 (Macaranga adenantha) 与 印度 血 桐 Macaranga 
indica) 为 同一 个 种 ] 是 自然 界 已 发 现 的 植物 中 ， 种 子 油脂 中 神经 酸 含量 较 高 的 木 本 植物 ， 是 
在 目前 发 现 的 物种 中 较为 理想 的 开发 神经 酸 产品 的 植物 资源 。 神 经 酸 是 大 脑 纤维 和 神经 细胞 
的 核心 天 然 成 分 ,与 脑 部 神经 的 生物 合成 密切 相关 。 神 经 酸 具 有 多 种 重要 的 生物 学 功能 ， 如 
促进 大 脑 发 育 ， 改 善 记忆 ， 延 组 大脑 衰老 (Li et al., 2019)， 摄 入 神经 酸 能 预防 和 治疗 老年 痴 
呆 症 、 脑 中 风 后 遗 症 、 脑 蓉 缩 、 脑 次 、 健 忘 失眠 及 记忆 力 减 退 等 脑 神经 系统 疾病 ( 田 德 雨 等 ， 
2015)。 基 于 以 上 各 点 ， 神 经 酸 的 开发 与 应 用 引起 了 国内 外 专家 的 的 高 度 关 注 ， 为 了 满足 人 
们 对 神经 酸 的 需求 ， 利 用 富 含 神经 酸 的 植物 开发 神经 酸 产品 已 成 为 获取 神经 酸 的 主要 途径 。 
目前 , 对 印度 血 桐 与 中 平 树 的 研究 主要 集中 在 常见 药 用 部 位 化 学 成 分 的 药理 活性 及 种 子 
脂肪 酸 成 分 方面 , 而 关于 印度 血 桐 与 中 平 树 基 因 组 信息 的 研究 未 见报 道 , 这 给 高 效 利 用 印度 
血 桐 与 中 平 树 野生 资源 选 育 植物 新 品种 带 来 了 极 大 的 不 便 , 由 于 印度 血 桐 与 中 平 树 为 木 本 植 
物 ， 基 因 组 大 小 尚 不 明确 ， 各 种 因素 使 得 血 桐 属 植物 的 分 子 生物 学 研究 进展 缓慢 。 因 此 , 在 
对 两 种 材料 进行 全 基因 组 深度 测序 之 前 ， 首 先 需 要 对 两 种 材料 进行 低 覆 盖 度 的 基因 组 调查 ， 
以 了 解 材料 基因 组 的 组 成 特征 和 模式 (Li et al., 2019)。 深入 分 析 DNA 中 的 遗传 信息 是 一 项 浩 
大 的 工程 ， 而 这 项 工程 的 首要 任务 就 是 突破 技术 上 的 重 难点 (Albach et al., 2007)。 植 物 全 基 
因 组 的 研究 进程 的 迅速 发 展 得 益 于 新 一 代 测 序 技术 日 益 进步 ( 施 季 森 等 ，2012)。 随 着 测序 技 
术 的 逐渐 成 熟 及 测序 价格 的 降低 , 基因 组 测序 已 被 广泛 应 用 到 各 种 具有 科研 价值 、 经 济 价值 、 
观赏 价值 的 物种 中 。 对 于 物种 的 基因 组 测序 , 可 以 帮助 我 们 了 解 各 种 生物 体 中 生命 现象 的 调 
控 机 制 以 及 物种 的 群体 进化 、 生 长 发 育 等 生物 学 问题 。 目 前 ， 可 对 物种 进行 基因 组 大 小 测定 
的 方法 有 流 式 细胞 术 、Feulgen 分 光 光 度 法 、 脉 冲 场 凝 胶 电 泳 法 以 及 在 技术 不 断 进 步 革新 的 
条 件 下 快速 发 展 的 高 通 量 测序 技术 ( 伍 艳 芳 等 ，2014)。 在 大 戟 科 植物 中 ， 麻 风 树 、 草 及、 木 
暮 、 橡 胶 树 等 (Chan et al., 2010; Shusei et al., 2011; Simon et al., 2012; Zou & Yang, 2019) 植 物 的 
基因 组 信息 已 有 报道 , 这 些 已 测 物种 的 基因 组 可 为 我 们 研究 大 戟 科 血 桐 属 植物 的 基因 组 信息 
提供 参考 。 

本 研究 采用 IIumina 二 代 高 通 量 测序 技术 ， 首 次 对 印度 血 桐 与 中 平 树 进行 了 基因 组 调 
查 ， 并 利用 生物 信息 学 方法 估计 了 两 种 材料 的 重复 率 、 杂 合 率 及 基于 基因 组 调研 的 SSR 
(simple sequence repeat) 特 征 分 析 , 则 在 为 印度 血 桐 与 中 平 树 的 全 基因 组 的 测序 和 组 装 方案 的 
制定 和 该 属 植物 的 进一步 研究 和 开发 利用 提供 依据 ; 为 血 桐 属 植 物 的 遗传 改良 提供 支持 ; 同 


= 


时 ，SSR 分 子 标 记 对 于 两 种 材料 的 种 质 资源 保护 和 遗传 多 样 性 等 方面 提供 一 定 参 考 。 
1 材料 与 方法 
1.1 材料 

本 实验 采用 的 实验 材料 ， 印 度 血 桐 与 中 平 树 均 为 正常 开花 结果 的 野生 植株 ， 于 2019 年 
7 月份 采 自 西双版纳 傣族 自治 州 景 洪 市 动 龙 镇 动 宋 村 公路 边 ， 带 回 实验 室 , 液 氮 速 冻 后 放置 
于 -80 'C 超 低温 冰箱 保存 ， 备 用 。 
1.2 样品 基因 组 DNA 的 提取 、 检 测 与 测序 

采用 CTAB 法 提取 印度 血 桐 与 中 平 树 叶片 基因 组 DNA, 紫外 分 光 光 度 计 检测 样品 浓度 ， 
琼脂 糖 凝 胶 电 泳 检 测 完 整 性 ， 将 提取 的 DNA 样品 送 至 公司 进行 建 库 测序 ， 参 考 其 它 木 本 植 
物 的 基因 组 大 小 及 大 戟 科 植 物 的 C 值 范围 选取 1 Gb 左右 的 基因 组 大 小 来 评估 印度 血 桐 与 
中 平 树 的 基因 组 测序 覆盖 度 。 
1.3 建 库 信 息 及 数据 量 统计 

印度 血 桐 与 中 平 树 基 因 组 采用 二 代 测 序 技术 ， 利 用 WGS (全 基因 组 鸟 枪法 )， 分 别 构建 
插入 片段 为 350 和 500bp 的 DNA 文 库 , 再 用 Ilumina Hiseqm'2000 平 台 进行 双 末 端 PairEnd) 
测序 ， 最 终 得 到 原始 测序 数据 (raw reads)， 取 全 部 原始 数据 对 测序 结果 进行 图 像 识 别 ， 去 污 
染 ， 去 接头 ; 统计 结果 包括 测序 read 数量 、 数 据 产 量 、 测 序 错误 率 、Q20 含量 、Q30 含量 、 
GC 含量 等 。 
1.4 基因 组 大 小 预测 和 杂 合 度 估计 

本 实验 通过 测序 得 到 的 序列 ， 基 于 K-mer 的 分 析 方 法 估计 印度 血 桐 和 中 平 树 的 基因 组 
大 小 及 杂 合 率 ， 取 K=17 进行 分 析 。K-mer 分 布 图 用 来 判断 基因 组 的 重复 序列 多 少 ， 如 果 材 
料 的 基因 组 重复 比例 较 高 ，K-mer 分 布 图 右 侧 将 会 出 现 拖 尾 现象 。mer 深度 分 布 服从 泊 松 分 
布 ， 根 据 曲线 获得 K-mer 深度 期 望 值 ， 用 于 估计 基因 组 大 小 〈 周 媛 等 ，2019)。 另 外 ， 在 


©O K-mer 的 分 布 曲线 中 , 一 般 会 出 现 一 个 覆盖 度 最 高 的 主峰 , 当 在 主峰 两 侧 出 现 另 一 个 小 峰 时 ， 
则 说 明 该 材料 的 基因 组 有 较 高 的 杂 合 度 ， 反 之 ， 则 没有 。 


二 1.5 样品 污染 判断 
~ 样品 的 污染 问题 在 基因 组 研究 中 有 非常 重要 的 地 位 , 它 能 够 保证 实验 样品 基因 组 序列 的 
完整 性 ， 数 据 真实 有 效 ， 结 果 可 靠 ， 反 之 ， 如 果 数 据 被 污染 ， 则 无 法 获得 相关 信息 。 对 过 滤 
= 后 的 高 质量 数据 随机 抽取 10 000 条 Reads(readl 和 read2 各 5 000 条 ) 数 据 ， 通 过 Blast 软件 
rr 比 对 NCBI 核 昔 酸 数据 库 INT 库 )， 如 果 比 对 结果 是 同 源 比 对 ， 则 认为 样本 不 存在 外 源 污染 ， 
如 果 比 对 结果 出 现 亲缘 关系 较 远 的 物种 ， 说 明 样 品 可 能 存在 污染 ( 闫 婧 ，2018)。 
1.6 SSR 分 析 
采 用 微 卫星 识别 工 具 (microsatellite identification tool, MISA) 
(http://pgre.Ipk-gatersleben.de/misa/) 在 所 有 序列 中 搜索 SSR 位 点 ， 搜 索 参 数 如 下 : mono-10、 
di-6、tri-5、Tetra-5、penta-5、hexa-6。 其 中 ， 复 合 序列 中 两 个 不 同 SSR 之 间 允 许 的 最 大 间 
隔 设置 为 100 bp ( 张 环 歼 等 ，2019)。 
2 结果 与 分 析 
2.1 材料 的 DNA 提取 
采用 CTAB 法 提取 印度 血 桐 与 中 平 树 幼 嫩 叶片 的 基因 组 DNA。 电 泳 图 显示 提取 的 两 种 
材料 基因 组 DNA 质量 良好 (图 D， 其 中 ， 印 度 血 桐 的 DNA 浓度 为 15.42 ng。hL*， 中 平 树 
的 DNA 浓度 为 10.46 ng， pL1， 可 用 于 后 续 实验 分 析 。 
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2.2 测序 数据 产量 统计 


图 1 实验 材料 DNA 提取 结 


Fig. 1 DNA extraction results of experimental materials 


利用 Hiumina 平台 对 两 种 材料 进行 高 通 量 双 端 测序 ， 经 过 对 原始 测序 数据 的 严格 筛选 ， 


得 到 高 质量 的 产 出 数据 (clean data)， 以 下 统计 是 印度 血 桐 和 中 平 树 4 个 文库 的 产 昌 
1)。 统 计 结 果 包 括 测序 数据 数量 、 数 据 产量 、 测 序 错误 率 、Q20 含量 


、\、 二 


数据 ( 表 
EE、Q30 含量 、GC 含量 


滤 掉 低 质 量 的 数据 后 , 分 别 得 到 了 53.56 和 68.07 Gb 的 印度 血 桐 与 中 平 树 的 数据 月 


于 


后 续 分 析 。 两 种 材料 碱 基质 量 正常 ，Q20 与 Q30 都 大 于 90%， 测 序 错误 率 都 为 0.04%， 印 
度 血 桐 的 GC 含量 为 33.89%， 中 平 树 的 GC 含量 为 33%， 结 果 表 明 原 始 测序 质量 较 好 ， 能 
保证 后 续 实 验 分 析 的 正常 进行 。 
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错误 率 
文库 原始 数据 过 滤 后 碱 基数 Error Q20 比例 Q30 比例 GC 含量 (%) 
Library name Raw Base (bp) Clean base (bp) rate(%) Q20 (%) Q30 (%) GC Content (%) 
印度 血 桐 L2(350 bp) 
M. indica_L2 (350 bp ) 22 883 137 800 22 859 641 500 0.04 96.78 91 33.83 
印度 血 桐 LI1 (500 bp) 
M. indica_L1 (500 bp ) 30725 104 200 30708347700 0.04 97.02 91.53 33.95 
合计 
Total 53 608 242 000 53 567 989 200 0.04 96.9 91.26 33.89 
中 平 树 L2(350 bp) 
M. denticulata_L2 (350bp) 26659 857000 26658456600 0.04 97.23 91.91 33.02 
中 平 树 L4(500 bp) 41 425 492 500 41 412 982 200 0.04 97.13 91.61 32.97 


:202008.00028v1 


chinaXiv 


ChinaXiv 合 作 期 刊 


M. denticulata_LA (500 bp) 
合计 


Total 68 085 349 500 68 071 438 800 0.04 97.18 91.76 33 


表 1 印度 血 桐 与 中 平 树 的 数据 产 出 统计 信息 
Table 1 Data statistics of Macaranga indica and M. denticulata 
注 : Q20 (%). 碱 基 识 别 的 正确 率 为 99%; Q30 (%). 碱 基 识 别 的 正确 率 为 99.9%; M. indica_L2(350 bp), M. 
indica_L1(500 bp), M. denticulata_L2(350 bp), M. denticulata_LA4(500 bp) 表 示 插 入 片段 大 小 。 


Note: Q20 (%). The accuracy of base recognition is 99%; Q30 (%). The accuracy of base recognition is 99.9%; M. 
indica_L2(350 bp), M. indica_L1(500 bp), M. denticulata_L2(350 bp), M. denticulata_LA(S00 bp) indicates the 
insert size. 
2.3 K-mer 分 析 与 基因 组 大 小 估 测 

采用 基于 K-mer 的 分 析 方 法 对 印度 血 桐 与 中 平 树 的 53.56 和 68.07 Gb 的 数据 进行 分 析 ， 
得 到 印度 血 桐 与 中 平 树 的 17-mer 分 布 情况 (图 2)， 横 坐标 表示 K-mer 出 现 的 总 次 数 ， 纵 坐标 
表示 K-mer 出 现 的 频率 〈 唐 其 等 ，2015)， 两 种 材料 主峰 之 前 都 出 现 杂 合 峰 ， 说 明 它 们 都 有 


一 定 的 杂 合 率 。 两 种 材料 的 17-mer 曲线 均 有 严重 拖 尾 ， 说 明 它 们 都 有 很 高 的 重复 序列 比例 。 
结合 表 2 可 知 ， 印 度 血 桐 与 中 平 树 的 测序 深度 分 别 为 40X 和 54X， 印 度 血 桐 的 K-mer 总 数 
为 39 725 851 195， 中 平 树 的 K-mer 总 数 为 51 594 983 117， 根 据 公 式 基 因 组 大 小 (G) 的 估计 
算法 : G=K-mun/K-depth， 其 中 K-depth 表示 K-mer 的 期 望 测序 深度 ，K-mun 表示 K-mer 的 
总 数 ( 刘 车 ，2019，http://blog.sciencenet.cn/u/lyao22211)， 由 此 公式 可 得 印度 血 桐 的 大 小 为 
993.15 M， 修 正 后 的 基因 组 大 小 为 986.84 M; 中 平 树 的 基因 组 大 小 为 955.46 M， 修 正 后 的 
基因 组 大 小 为 946.23 M; 印度 血 桐 和 中 平 树 的 杂 合 率 分 别 为 0.75% 和 0.65%， 印 度 血 桐 和 中 
平 树 的 重复 率 分 别 为 73.02% 和 73.5%。 由 测序 结果 可 知 ， 印 度 血 桐 与 中 平 树 都 属于 高 重复 
微 杂 合 基 因 组 。 
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A. 印度 血 桐 ; B. 中 平 树 


A. Macaranga indica; B. M. denticulata. 


图 2 17-mer 分 布 曲线 


Fig. 2 Distribution curve of 17-mer 


表 2 17-mer 分 析 数 据 统计 


Table 2 Data statistics of 17-mer analysis 


Kmer 基因 组 侈 正 后 的 
长 度 ”深度 Kmer 总 数 大 小 基因 组 大 小 杂 合 率 重复 率 
样品 Kmer Genome Revised genome Heterozygous Repeat 

Depth Kmer sum 
Sample length size(M) size(M) rate(%) rate(%) 
印度 血 桐 
Macaranga indica 17 40 39 725 851 195 993.15 986.84 0.75 73.02 
中 平权 
M. denticulata 17 54 51 594 983 117 955.46 946.23 0.65 71.5 


2.4 样品 污染 评估 一 核 苷 酸 比 对 结果 


分 别 从 印度 


! 桐 与 中 平 树 的 330 和 500 bp 的 序列 文库 中 随机 抽取 10 000 条 过 滤 后 的 单 


端 高 质量 reads (readl 和 read2 各 5 000 条 )， 与 NT 库 CNCBI 核 苷 酸 数据 库 ) 进行 BLAST 
比 对 ， 将 比 对 结果 比率 最 高 的 前 六 位 物种 展示 出 来 ( 表 3)， 比 对 结果 显示 ， 在 印度 血 桐 与 中 


平 树 的 两 个 文库 ， 


， 比 对 结果 比率 最 高 的 4 


匆 种 均 为 葛 麻 ， 在 印度 


桐 的 350 和 500 bp 文库 


中 ， 萝 麻 分 别 占 比 对 上 的 NT 库 的 reads 总 数 的 1.61% 和 1.9%， 而 在 中 平 树 的 350 和 500 bp 


文库 中 ， 葛 麻 分 别 占 比 对 上 的 NT 库 的 reads 总 数 的 1.78% 和 1.65%， 根 据 
药 麻 属于 大 戟 科 植 物 ， 为 印度 血 桐 与 中 平 树 的 近 缘 物种 。 此 外 ， 比 对 结果 的 其 他 物种 均 为 植 


分 类 学 结果 可 知 ， 


物 ， 未 发 现 动物 或 微生物 等 异常 物种 的 高 比率 情况 ， 因 此 判断 样品 材料 无 污染 ,可 用 于 后 续 
基因 组 调研 图 的 正常 分 析 。 
表 3 原始 数据 文库 与 NT 库 比 对 表 
Table 3 Blast result of raw date with NT database 
第 一 个 第 二 个 第 三 个 第 四 个 第 五 个 第 六 个 
比 对 结果 比 对 结果 比 对 结果 比 对 结果 比 对 结果 比 对 结果 
库 名 The first The second The third The fourth The fifth The sixth 
Library name comparison comparison comparison comparsion comparsion comparsion 
result result result result result result 
0 橡胶 树 (0.32) 墨水 树 (0.09) 机关 训 0 麻 疯 树 (0.06) ”无 油 樟 (0.05) 
印度 血 桐 L2(350 bp) Hevea Helianthus ee | Jatropha Ampborella 
J icinus itis vinifera 
M. indica_L2 (350 bp) brasiliensis maximiliani 4 Curcas trichopoda 
communis (1.61) (0.06) 
(0.32) (0.09) (0.06) (0.05) 
橡胶 树 (0.18) 墨水 树 (0.1) ” 麻 疯 树 (0.08) ” 野 茶树 (0.06) 
草 麻 (1.9) 木薯 (0.14) 
印度 血 桐 L1(500 bp) Hevea Helianthus Jatropha Camellia 
Ricinus Manihot 
M. indica_L1 (500 bp) brasiliensis maximiliani curcas Sinensis 
communis (1.9) esculenta (0.14) 
(0.18) (0.1) (0.08) (0.06) 
二 橡胶 树 (0.19) 木 昔 (0.06) 亚麻 (0.05) 
中 平 树 L2(350 bp) 可 Hevea 麻 疯 树 (0.07) Manihot Linum 葡萄 (0.04) 
icinus 
M. denticulata_L2(350 bp) brasiliensis Jatropha curcas esculenta usitatissimum Vitis vinifera 
communis (1.78) 
(0.19) (0.07) (0.06) (0.05) (0.04) 


墨水 树 (0.18) 木薯 (0.12) 麻 疯 树 (0.11) 


草 肪 (1.65) 橡胶 树 (0.2) 
中 平 树 L1(500 bp) Helianthus Manihot Jatropha 
Ricinus Hevea 
M. denticulata_L4(S00 bp) maximiliani esculenta curcas 
communis (1.65) brasiliensis (0.2) 
(0.18) (0.12) (0.11) 


葡萄 (0.08) 


Vitis vinifera 


(0.08) 


2.5 印度 血 桐 与 中 平 树 基因 组 SSR 分 析 
利用 微 卫 星 识别 


具 MISA 在 印度 血 桐 与 中 平 树 初步 组 装 的 所 有 序列 中 进行 SSR 查找 ， 
搜索 结果 如 表 4 所 示 ， 在 印度 血 桐 中 共 搜 索 到 4 499 185 个 SSR， 在 所 含有 SSR 的 序列 中 ， 


445 117 条 序列 包含 1 个 以 上 SSR， 以 复合 


进行 统计 ， 在 印度 


式 存在 的 SSR 数量 有 492 341 个 ; 在 中 平 树 中 


搜索 到 4 969 098 个 SSR， 在 所 含有 SSR 的 序列 中 ，458 726 条 序列 包含 1 个 以 上 SSR， 
以 复合 形式 存在 的 SSR 序列 有 507 887 条 。 分 别 对 两 丰 


材料 的 不 同类 型 的 SSR 核 背 酸 数量 


中 


! 桐 的 SSR 核 童 酸 数量 中 ， 单 、 双 、 三 、 四 、 五 和 六 核 童 酸 重 复 模 体 分 


别 有 2 800 292 个 、1 199 707 个 、432 509 个 、48 890 个 、10 498 个 、7 289 个 ， 它 们 分 别 占 
印度 血 桐 总 重复 模 体 的 62.24%、26.66%、9.61%、1.09%、0.23%、0.16%; 在 中 平 树 的 SSR 
核 背 酸 数量 中 ， 单 、 双 、 三 、 四 、 五 和 六 核 音 酸 核 苷 酸 重复 模 体 分 别 有 3 037 613 个 、1 321 
752 个 、522 801 个 .63 973 个 、11 254 个 、11 705 个 ,它们 分 别 占 中 平 树 总 重复 模 体 的 61.13%、 


26.60%、10.52%、1.29%、0.23%、0.24%。 
重复 模 体 按照 序列 组 成 进行 


随后 ， 进 一 步 对 印度 血 桐 与 中 平 树 中 每 种 SSR 


分 ， 分 别 展 示 出 两 种 材料 中 重复 类 型 的 部 分 数目 ( 表 5)。 


表 4 印度 血 桐 与 : 


平 树 基 因 组 中 SSR 的 数目 与 类 型 


Table 4 Number and types of SSR of genome sequences in Macaranga indica and 


M. denticulata 


搜索 项 目 印度 血 桐 的 数 中 平 树 的 数目 
Searching Item Number of M. indica Number of M. denticulata 
检测 的 序列 总 数 


Total number of sequences examined 
检测 的 序列 总 长 度 

Total size of examined sequences (bp) 
检测 出 的 SSR 总 数 

Total number of identified SSRs 

包含 SSR 的 序列 数 

Number of SSR containing sequences 

包含 一 个 以 上 SSR 的 序列 数 

Number of sequences containing more than 1 SSR 
以 复合 形式 存在 的 SSR 数目 


Number of SSRs present in compound formation 


67 527 577 77 796 952 


10 129 136 550 11 669 542 800 


4499 185 4 969 098 
3 995 677 4 449 684 
445 117 458 726 
492 341 507 887 


表 5 印度 血 桐 与 ! 


平 树 中 单 、 双 、 三 、 四 、 五 、 六 核 音 酸 重 复 模 体 部 分 统计 结果 


Table $ Results statistics of mononucleotide, dinonucleotide, tinonucleotide, tetranucleotide, 


pentanucleotide and hexanucleotide repeat motifs in M. indica and M. denticulata 


印度 血 桐 的 重复 类 型 数 中 平 树 的 重复 类 型 数目 
Repeat types of M. indica Number Repeat types of M. denticulata Number 
单 核 昔 酸 重复 模 体 单 核 音 酸 重复 模 体 


Mononucleotide Mononucleotide 

repeat motifs repeat motifs 

A/T 2 760 071 A/T 3 013 601 
C/G 40 221 C/G 24 012 
双核 苷 酸 重复 模 体 双核 昔 酸 重复 模 体 

Dinonucleotide Dinonucleotide 

repeat motifs repeat motifs 

AT/AT 980 978 AT/AT 1 084511 
AG/CT 109 488 AC/GT 119 721 
AC/GT 108 893 AG/CT 117 219 
CG/CG 348 CG/CG 301 

三 核 苷 酸 重复 模 体 三 核 苷 酸 重复 模 体 

Tinonucleotide repeat motifs Tinonucleotide repeat motifs 

AAT/ATT 254 523 AAT/ATT 297 791 
AAG/CTT 89 777 AAG/CTT 105 809 
ATC/ATG 33 781 ATC/ATG 47 731 
AAC/GTT 19 142 AAC/GTT 25 237 
四 核 昔 酸 重复 模 体 ] 核 苷 酸 重复 模 体 

Tetranucleotide repeat motifs Tetranucleotide repeat motifs 

AAATATTT 29 231 AAAT/ATTT 36 830 
AATT/AATT 8 775 AATT/AATT 12 234 
AAAG/CTTT 4557 AAAG/CTTT 5221 
ACAT/ATGT 3 179 ACAT/ATGT 4167 
五 核 音 酸 重复 模 体 五 核 苷 酸 重复 模 体 

Pentanucleotide repeat motifs Pentanucleotide repeat motifs 

AAAAG/CTTTT 4 164 AAAAT/ATTTT 4 094 
AAAAT/ATTTT 2 937 AAAAG/CTTTT 2 298 
AAATT/AATTT 482 AATAT/ATATT 1259 
AATAT/ATATT 472 AAATT/AATTT 584 

六 核 芽 酸 重复 模 体 六 核 苷 酸 重复 模 体 

Hexanucleotide repeat motifs Hexanucleotide repeat motifs 
AAAAAT/ATTTTT 1 698 AAAAAT/ATTTTT 1916 
AAAAAG/CTTTTT 1 114 AAAAAG/CTTTTT 1 497 
AATGAT/ATCATT 329 AATAGT/ACTATT 1 093 
ACATAT/ATATGT 328 AACAAT/ATTGTT 855 

3 讨论 


人 


人 


基因 组 大 小 是 比较 和 进化 基因 组 学 的 基础 


,基因 组 的 杂 合 率 和 重复 率 是 决定 基因 组 组 装 


质量 的 关键 , 评估 测序 数据 的 杂 合 率 与 重复 率 , 有 助 于 找到 合适 的 组 装 策 略 (Bi et al., 2019)。 


对 印度 


1 桐 与 中 平 树 进行 17- mer 分 析 后 发 现 ， 印 度 
987 和 946 M， 由 测定 结果 来 看 ， 印 度 血 桐 与 中 
大 小 均 比 大 戟 科 植 物 木 昔 的 基 


et al., 2011)、 麻 疯 树 的 基 
Yang, 2019) 要 稍 小 


些 ， 这 种 现象 可 


! 桐 与 中 平 树 的 预 估 基因 组 大 小 分 别 为 


因 组 770 M (Simon et al., 2012)、 曹 麻 的 基因 


F 树 的 基因 组 大 小 相近 ， 两 和 


材料 的 基因 组 


组 


350 M (Shusei 


因 组 410 M 大 (Chan et al., 2010)， 比 橡胶 树 的 基因 弓 


台 晶 


用 征 因为 印度 


日 1.1 G (Zou& 


[ 桐 与 中 平 树 属于 大 载 科 [ 


桐 属 植物 ， 


ul 
一 - 


而 木 昔 、 草 麻 、 麻 风 树 与 橡胶 树 分别 为 大 戟 科 其 他 属 植物 ， 结 果 显 示 属 内 差异 较 小 ， 而 属 间 
差异 较 大 , 这 可 能 是 由 于 种 系 发 育 关 系 较 远 、 染 色 体 数目 不 同 或 者 自 交 亲 和 现 象 的 出 现 导 致 
的 《 周 佳 烟 等 ，2017)。 基 因 组 大 小 的 测定 对 了 解 物种 的 生长 发 育 、 起 源 进化 等 问题 具有 重 
意义 。 印 度 血 桐 与 中 平 树 基 因 组 大 小 测定 的 完成 ,为 研究 大 戟 科 血 桐 属 植物 基因 组 大 小 变 
化 规律 提供 了 一 定 的 参考 依据 。 

判断 测序 数据 的 杂 合 度 有 利于 寻找 合适 的 基因 组 拼接 方法 , 根据 杂 合 度 大 小 可 将 基因 加 
进一步 分 为 微 杂 合 基 因 组 (0.5% 三 杂 合 率 二 0.8%)、 高 杂 合 基因 组 ( 杂 合 率 宇 0.8%) 以 及 高 
复 基 因 组 (重复 序列 比例 大 50%)( 王 雪 等 ，2018)。 测序 结果 显示 印度 血 桐 与 中 平 树 的 杂 合 率 
分 别 为 0.75% 与 0.65%， 重 复 率 分 别 为 73.03% 和 71.6%， 两 种 植物 的 基因 组 都 有 一 定 的 杂 合 
率 以 及 较 高 的 重复 率 , 印度 血 桐 与 中 平 树 都 属于 雌雄 异 株 的 植物 , 这 可 能 是 导致 二 者 含有 较 
高 杂 合 率 的 原因 之 一 ， 因 此 ， 使 用 WGS 策略 对 印度 血 桐 与 中 平 树 的 基因 组 分 析 有 一 定 的 风 
险 和 难度 ， 建 议 后 续 的 研究 采用 二 代 测 序 (Iliumina) 和 三 代 测 序 (PacBio) 技术 相 结 合 的 
策略 ， 对 印度 血 桐 和 中 平 树 基因 组 进行 测序 和 组 装 ， 此 外 ， 利 用 Hi-C 技术 达到 染色 体 水 平 
的 组 装 ， 多 种 方法 互补 ， 以 期 获得 两 种 材料 的 高 质量 全 基因 组 图 谱 。 

SSR 分 子 标记 具有 易 操 作 、 多 态 性 高 、 成 本 低 、 数 量 丰富 等 优点 。 本 研究 基于 印度 血 柚 
与 中 平 树 基因 组 调查 数据 进行 SSR 分 析 发 现 ， 印 度 血 桐 中 平均 2 251bp 出 现 1 个 SSR， 中 
平 树 中 平均 2 348 bp 出 现 1 个 SSR， 含 丰富 的 重复 类 型 ， 结 果 显 示 两 种 材料 的 SSR 分 子 标 
记 具 有 显著 的 碱 基 偏 好 性 ， 它 们 的 单 核 背 酸 重复 模 体 中 A/T 含量 均 高 于 C/G 含量 ， 两 种 材 
料 中 双核 苷 酸 重 复 模 体 中 含量 最 高 均 为 AIAT， 含 量 最 低 为 CG/CG， 这 可 能 是 甲 基 化 的 C 
残 基 变 为 T， 使 得 两 种 核 苷 酸 重复 的 差异 较 大 〈 周 佳 煜 等 ，2017)。 有 研究 认为 基因 组 中 低 
级 重复 单元 较 多 则 表示 该 物种 进化 水 平 较 高 , 而 高 级 重复 单元 比例 高 的 物种 其 进化 时 间 短 或 
变异 频率 低 〈 于 福来 等 ，2019)。 因 此 ， 在 基因 组 调查 测序 的 基础 上 规模 化 开发 与 筛选 SSR 
分 子 标记 ， 为 后 续 进 一 步 运 用 SSR 标记 在 物种 遗传 图 谱 的 构建 和 遗传 多 样 性 分 析 以 及 QTL 
定位 等 方面 的 研究 提供 参考 。 
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